进化算法的运行时间分析最近在将算法性能与算法参数联系起来方面取得了重大进展。但是,研究问题参数的影响的设置很少见。最近提出的W模型为此类分析提供了一个良好的框架,从而生成了具有可调属性的伪树状优化问题。我们通过研究其一种特性(中立性)如何影响随机局部搜索的运行时间来启动W模型的理论研究。中立性通过首先对解决方案候选者的子集进行多数投票,然后通过低级健身函数评估较小维的字符串,从而在搜索空间中创建高原。我们证明,对于此大多数问题,在其整个参数频谱上,随机局部搜索的预期运行时间是上限。为此,我们提供了一个适用于许多优化算法的定理,该定理将多数的运行时间与其对称版本hasmajority联系起来,其中需要足够多数来优化子集。我们还介绍了经典漂移定理的广义版本以及Wald方程的广义版本,我们认为这两个都具有独立的兴趣。
translated by 谷歌翻译
Large language models (LLMs) have demonstrated impressive capabilities in natural language understanding and generation, but the quality bar for medical and clinical applications is high. Today, attempts to assess models' clinical knowledge typically rely on automated evaluations on limited benchmarks. There is no standard to evaluate model predictions and reasoning across a breadth of tasks. To address this, we present MultiMedQA, a benchmark combining six existing open question answering datasets spanning professional medical exams, research, and consumer queries; and HealthSearchQA, a new free-response dataset of medical questions searched online. We propose a framework for human evaluation of model answers along multiple axes including factuality, precision, possible harm, and bias. In addition, we evaluate PaLM (a 540-billion parameter LLM) and its instruction-tuned variant, Flan-PaLM, on MultiMedQA. Using a combination of prompting strategies, Flan-PaLM achieves state-of-the-art accuracy on every MultiMedQA multiple-choice dataset (MedQA, MedMCQA, PubMedQA, MMLU clinical topics), including 67.6% accuracy on MedQA (US Medical License Exam questions), surpassing prior state-of-the-art by over 17%. However, human evaluation reveals key gaps in Flan-PaLM responses. To resolve this we introduce instruction prompt tuning, a parameter-efficient approach for aligning LLMs to new domains using a few exemplars. The resulting model, Med-PaLM, performs encouragingly, but remains inferior to clinicians. We show that comprehension, recall of knowledge, and medical reasoning improve with model scale and instruction prompt tuning, suggesting the potential utility of LLMs in medicine. Our human evaluations reveal important limitations of today's models, reinforcing the importance of both evaluation frameworks and method development in creating safe, helpful LLM models for clinical applications.
translated by 谷歌翻译
Despite being responsible for state-of-the-art results in several computer vision and natural language processing tasks, neural networks have faced harsh criticism due to some of their current shortcomings. One of them is that neural networks are correlation machines prone to model biases within the data instead of focusing on actual useful causal relationships. This problem is particularly serious in application domains affected by aspects such as race, gender, and age. To prevent models from incurring on unfair decision-making, the AI community has concentrated efforts in correcting algorithmic biases, giving rise to the research area now widely known as fairness in AI. In this survey paper, we provide an in-depth overview of the main debiasing methods for fairness-aware neural networks in the context of vision and language research. We propose a novel taxonomy to better organize the literature on debiasing methods for fairness, and we discuss the current challenges, trends, and important future work directions for the interested researcher and practitioner.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
在同时定位和映射(SLAM)中,环路闭合检测(LCD)对于在识别先前访问的地方时最小化漂移至关重要。视觉袋(VBOW)一直是许多最先进的大满贯系统的LCD算法。它使用一组视觉功能来提供健壮的位置识别,但无法感知特征点之间的语义或空间关系。先前的工作主要集中在解决这些问题上,通过将VBOW与现场对象的语义和空间信息相结合。但是,他们无法利用局部视觉特征的空间信息,并且缺乏统一语义对象和视觉特征的结构,因此限制了两个组件之间的共生。本文提出了SymbiolCD2,该symbiolcd2创建了一个统一的图形结构,以在共生的方式集成语义对象和视觉特征。我们的新型基于图的LCD系统通过应用具有时间限制的Weisfeiler-Lehman图内核来利用统一的图结构,以稳健地预测循环闭合候选者。对所提出的系统的评估表明,具有结合语义对象和视觉特征的统一图结构提高了LCD预测精度,这说明了所提出的图形结构在这两个互补组件之间提供了强烈的共生。它还优于其他机器学习算法 - 例如SVM,决策树,随机森林,神经网络和基于GNN的图形匹配网络。此外,它在比最先进的SLAM系统的早期检测循环闭合候选方面表现出良好的性能,这表明统一图结构的扩展语义和空间意识会显着影响LCD的性能。
translated by 谷歌翻译
Majorana示威者是一项领先的实验,寻找具有高纯净锗探测器(HPGE)的中性s中性双β衰变。机器学习提供了一种最大化这些检测器提供的信息量的新方法,但是与传统分析相比,数据驱动的性质使其不可解释。一项可解释性研究揭示了机器的决策逻辑,使我们能够从机器中学习以反馈传统分析。在这项工作中,我们介绍了Majorana演示者数据的第一个机器学习分析。这也是对任何锗探测器实验的第一个可解释的机器学习分析。训练了两个梯度增强的决策树模型,以从数据中学习,并进行了基于游戏理论的模型可解释性研究,以了解分类功率的起源。通过从数据中学习,该分析识别重建参数之间的相关性,以进一步增强背景拒绝性能。通过从机器中学习,该分析揭示了新的背景类别对相互利用的标准Majorana分析的重要性。该模型与下一代锗探测器实验(如传说)高度兼容,因为它可以同时在大量探测器上进行训练。
translated by 谷歌翻译
我们使用基于模型的k均值算法的概括来提出一种聚类时间序列数据的方法,我们称之为k模型。我们证明了该一般算法的收敛性,并将其与用于混合模型的硬EM算法相关联。然后,我们首先使用AR($ p $)聚类示例应用我们的方法,并展示如何使用最小值的偏置偏差标准使群集算法变得可靠。然后,我们为ARMA($ P,Q $)构建了聚类算法,并将其扩展到Arima($ P,D,Q $)。我们针对基于Ljung-Box统计量拟合的模型开发了拟合统计量的优点。我们使用模拟数据执行实验,以说明如何将算法用于离群检测,检测分布漂移以及讨论初始化方法对空簇的影响。我们还对真实数据进行实验,该实验表明我们的方法与其他现有方法竞争类似的时间序列聚类任务。
translated by 谷歌翻译
培训和评估语言模型越来越多地要求构建元数据 - 多样化的策划数据收集,并具有清晰的出处。自然语言提示最近通过将现有的,有监督的数据集转换为多种新颖的预处理任务,突出了元数据策划的好处,从而改善了零击的概括。尽管将这些以数据为中心的方法转化为生物医学语言建模的通用域文本成功,但由于标记的生物医学数据集在流行的数据中心中的代表性大大不足,因此仍然具有挑战性。为了应对这一挑战,我们介绍了BigBio一个由126个以上的生物医学NLP数据集的社区库,目前涵盖12个任务类别和10多种语言。 BigBio通过对数据集及其元数据进行程序化访问来促进可再现的元数据策划,并与当前的平台兼容,以及时工程和端到端的几个/零射击语言模型评估。我们讨论了我们的任务架构协调,数据审核,贡献指南的过程,并概述了两个说明性用例:生物医学提示和大规模,多任务学习的零射门评估。 BigBio是一项持续的社区努力,可在https://github.com/bigscience-workshop/biomedical上获得。
translated by 谷歌翻译
对偏见的探索对深度学习管道在医疗环境中的透明度和适用性有重大影响,但到目前为止却经过了严重的研究。在本文中,我们考虑了仅在不同的图像分辨率下可用于培训数据的两个单独的组。对于H组,可用的图像和标签处于首选高分辨率,而对于L组L仅弃用较低的分辨率数据。我们分析了数据分布中的这种分辨率偏差如何传播到更高分辨率下L组的系统偏差预测。我们的结果表明,单分辨率训练设置会导致体积组差异的显着损失,这些差异转化为DSC衡量的错误分割,并在低分辨率组上进行了分类失败。我们进一步探讨了如何使用跨决议的培训数据来应对这种系统偏见。具体而言,我们研究了图像重新采样,扩展和解决独立性的影响,并证明可以通过多分辨率方法有效地降低偏见。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译